Rank in Wordlist | Word | Rank in Wordlist | Word |
---|---|---|---|
1 | של | 26 | עד |
2 | את | 27 | כמו |
3 | על | 28 | כדי |
4 | לא | 29 | אחד |
5 | כי | 30 | ישראל |
6 | הוא | 31 | זאת |
7 | עם | 32 | לפני |
8 | גם | 33 | אך |
9 | זה | 34 | מיליון |
10 | היא | 35 | היום |
11 | כל | 36 | עוד |
12 | יותר | 37 | כבר |
13 | אבל | 38 | שלא |
14 | אני | 39 | אותו |
15 | או | 40 | דולר |
16 | אם | 41 | לו |
17 | היה | 42 | אין |
18 | יש | 43 | החברה |
19 | בין | 44 | לי |
20 | אמר | 45 | זו |
21 | מה | 46 | ולא |
22 | הם | 47 | שלו |
23 | כך | 48 | שקל |
24 | רק | 49 | אחרי |
25 | לאחר | 50 | ביותר |
The table shows the top-50 words of the corpus. Usually we see stopwords.
Language: Afrikaans
This list is a good candidate for a first stopword list for a language.
Usually a small, balanced corpus is enough to get a good list of high frequent words. But if the small corpus has some very prominent topic, this will be visible even in the top word lists.
select w_id-100 as rank_in_wordlist, word from words where w_id>100 order by w_id limit 50;
3.4 Sample words for different frequency ranges